文本数据增强方法总结 |
您所在的位置:网站首页 › 数据增强的方法有哪些 200多数据样本 › 文本数据增强方法总结 |
我们知道,在NLP领域,特别是工业界中,标签数据是很难获得的,很多时候会面临数据量太小的问题,这个时候,文本数据增强可以有效地帮我们缓解这个问题。我本人在今年的科大讯飞AI大赛中也使用了下文提到的一些方法,并提升了5个百分点左右(后续的文章会详细介绍,请持续关注…),可以说效果是相当明显,所以说数据增强方法绝对是值得大家花点时间学习的。 本篇文章,我们将介绍常用的文本数据增强方法,并提供相应的参考文献以及使用案例。 文章目录 1. Easy Data Augmentation(EDA)2. An Easier Data Augmentation(AEDA)3. Back translation4. Masked Language Model5. Random Noise Injection6. Instance Crossover Augmentation7. Syntax-tree Manipulation8. MixUp for Text9. Conditional Pre-trained Language Models10. 工具介绍10.1 NLP Albumentation10.2 NLPAug Library10.3 Things to keep in mind 1. Easy Data Augmentation(EDA)EDA是一种简单但非常有效的方法,具体包括随机替换,随机插入,随机交换,随机删除等。 AEDA方法很简单,就是在句子中间添加标点符号以此来增强数据。整篇文章正文只有一段,所谓大道至简。中了EMNLP2021 Findings。 Back translation即回译:将文本翻译成另外一种语言,然后再翻译回来。同时,我们也可以翻译成多个语言,从而得到多条回译样本。 掩码语言模型(Masked Language Model),即利用预训练好的BERT, Roberta等模型,对原句子进行部分掩码,然后让模型预测掩码部分,从而得到新的句子。 使用方法也很简单: Random Noise Injection方法的思想是在文本中注入噪声,来生成新的文本,最后使得训练的模型对扰动具有鲁棒性。 Spelling error injection 在这种方法中,我们在句子中添加一些随机单词的拼写错误。可以通过编程方式或使用常见拼写错误的映射来添加这些拼写错误。 QWERTY Keyboard Error Injection 这种方法试图模拟在 QWERTY 键盘布局上打字时由于键之间非常接近而发生的常见错误。 Unigram Noising 其思想是使用从 unigram 频率分布中采样的单词进行替换。这个频率基本上就是每个单词在训练语料库中出现的次数。 在该方法中,一条 tweet 被分成两半,然后两个相同情绪类别(正/负)的 tweets 各自交换一半的内容。这么做的假设是,即使结果在语法和语义上不健全,新的文本仍将保留原来的情绪类别。 其思想是解析并生成原始句子的依赖树,使用规则对其进行转换来对原句子做复述生成。 例如,一个不会改变句子意思的转换是句子的主动语态和被动语态的转换。 ![]() ![]() 通过文本生成的方法来增加样本(有点像今年比较火的prompt learning方法) 第一步:
一些总结 一些注意事项: |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |